¡Ay!: el sobremuestreo y el submuestreo no pueden ayudar a mejorar la precisión en nuestros clasificadores bayesianos que predicen la preeclampsia

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

¡Ay!: el sobremuestreo y el submuestreo no pueden ayudar a mejorar la precisión en nuestros clasificadores bayesianos que predicen la preeclampsia

Autores: Parrales-Bravo, Franklin; Caicedo-Quiroz, Rosangela; Tolozano-Benitez, Elena; Gómez-Rodríguez, Víctor; Cevallos-Torres, Lorenzo; Charco-Aguirre, Jorge; Vasquez-Cevallos, Leonel

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

¡Ay!: el sobremuestreo y el submuestreo no pueden ayudar a mejorar la precisión en nuestros clasificadores bayesianos que predicen la preeclampsia

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos desequilibrados

Algoritmos de aprendizaje automático

Estrategias de sobremuestreo

Estrategias de submuestreo

Modelos de clasificación bayesianos

Preeclampsia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

Los datos desequilibrados pueden tener un impacto en los algoritmos de aprendizaje automático (ML) que construyen modelos predictivos. Este manuscrito estudia la influencia de las estrategias de sobremuestreo y submuestreo en el aprendizaje de los modelos de clasificación bayesiana que predicen el riesgo de sufrir preeclampsia. Dadas las propiedades de nuestro conjunto de datos, solo se tomarán en consideración los métodos de sobremuestreo y submuestreo que operan con atributos numéricos y categóricos. En particular, se consideran técnicas de sobremuestreo de minorías sintéticas para datos nominales y continuos (SMOTE-NC), SMOTE-Encoded Nominal and Continuous (SMOTE-ENC), ejemplos de sobremuestreo aleatorio (ROSE), ejemplos de submuestreo aleatorio (UNDER) y técnicas de sobremuestreo aleatorio (OVER). Según los resultados, al equilibrar la clase en el conjunto de datos de entrenamiento, los porcentajes de precisión no mejoran. Sin embargo, en el conjunto de datos de prueba, tanto los casos positivos como negativos de preeclampsia fueron clasificados con precisión por los modelos, que se construyeron en un conjunto de datos de entrenamiento equilibrado. En contraste, los modelos construidos en el conjunto de datos de entrenamiento desequilibrado no fueron buenos para detectar casos positivos de preeclampsia. Podemos concluir que si bien los conjuntos de datos de entrenamiento desequilibrados pueden abordarse utilizando técnicas de sobremuestreo y submuestreo antes de construir modelos de predicción, no siempre se garantiza una mejora en la precisión del modelo. A pesar de esto, los porcentajes de sensibilidad y especificidad mejoran en problemas de clasificación binaria en la mayoría de los casos, como el que estamos tratando en este manuscrito.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro